[t:/]$ 지식_

pyspark VectorUDT

2018/02/07

스팍에서 머신러닝 알고리즘을 돌릴때 VectorUDT 형이 아니라서 에러가 나는 경우가 많다. 스택오버플로우를 보면 이런저런 udf 로 변환하라고 되어있는데 변환도 비용이다.

아예 map 할때 SparseVector나 DenseVector로 리스트를 때려넣고 toDF하면 그게 바로 VectoUDT가 된다. 바로 모델러에 넣을 수가 있다.

스팍 하다보면 이런 짜친 팁이 성능에 영향을 미치는 경우가 많다.

하아..





공유하기













[t:/] is not "technology - root". dawnsea, rss